#softmax entero

IntAttention: Pipeline entero de atención para inferencia en edge

Descubre IntAttention: acelera la inferencia de Transformers en edge hasta 3.7x con pipeline entero sin conversiones. Sin pérdida de precisión.